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基于 WMF_LDA 主题 模型 的 文本 相似 度 计算 ， 
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摘 要 : 文本 相似 度 的 判断 和 计算 是 自然 语言 处 理 领 域 中 具有 重要 意义 和 研究 价值 的 一 部 分 内 容 。 利 用 LDA 模型 进 
行文 本 相似 度 的 计算 考虑 到 了 语义 特征 ， 但 是 存在 词语 数量 多 、 未 结合 词语 语义 、 未 从 文本 层面 挖掘 和 利用 不 同类 别 

文本 国有 的 领域 间 差 异 的 缺点 。 针 对 以 上 问题 ， 提 出 WMF_LDA( 词 语 合并 与 过 滤 潜 在 狄 利 克 雷 分 布 ) 主 题 模 型 。 将 领 

域 词 和 近义词 进行 统一 化 映射 ， pp 过 滤 ， 最 后 再 进行 主题 建 模 。 实 验证 明 ， 该 方法 使 得 建 模 时 词 
吾 量 大 大 减少 ， 减 少 了 建 模 过 程 的 时 间 消 耗 ， ee 

提出 的 方法 在 准确 度 ee 定 程度 的 提升 。 
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Text similarity calculation based on WMF_ LDA topic model 


Zhang Lu’, Lu Tianliang*°, Du Yanhui®? 
(a. Information Technology & Network Security Institute, b. CIC of Security & Law for Cyberspace, People's Public Security 
University of China, Beijing 100038, China) 


Abstract: Text similarity calculation is a significant part with great research value in the field of NLP (Natural Language 


Processing) . The calculation of text similarity with LDA (Latent Dirichlet Allocation) model takes into account the semantic 


features, but it has the disadvantages of a large number of words, unconformity of the semantics of words, and the inability to 


dig and exploit the inter-domain differences inherent in texts of different categories. This paper proposes WMF_ LDA topic 
model (Word Merging and Filtering LDA). This model maps domain words and synonyms, and filters the words based on POS. 
Finally, LDA theme is used on the processed result. Experiments show that this method greatly reduces the amount of words 
during modeling, reduces the time consumption of the modeling process, and improves the speed of the final text clustering. 
And compared with other text similarity methods, the method proposed in this paper also has a certain degree of improvement 
in accuracy. 
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了 文本 聚 类 的 结果 和 精确 度 。 除 此 之 外 ， 文 本 相似 度 计算 还 应 
用 于 文本 摘要 生成 e995.、 文 档 重复 度 检 测 等 领域 "2 
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文本 相似 度 是 在 语言 学 、 心 理学 和 信息 理论 等 领域 内 均 被 。 忌 "。 

RO Oe i 
mt A a constd niin 1 ”相关 工作 
本 相似 度 计算 是 其 中 的 重要 研究 内 容 和 研究 方向 。 在 信息 检索 
和 比 对 方面 ， 文 本 相似 度 计 算 为 其 提供 手段 和 方法 ， 良 好 的 相 直 以 来 ， 文 本 相似 度 研究 都 是 自然 语言 处 理 的 重要 研究 
似 度 计算 算法 可 以 很 好 的 提高 ， 甚 至 很 大 程度 上 决定 了 信息 检 课题 。 传 统 的 VSM 方法 以 TF-IDF 作为 特征 构建 向 量 ， 并 以 余 
索 和 比 对 结果 的 精确 度 趾 。 文 本 相似 度 的 应 用 范围 非常 广泛 ， 弦 距 离 计 算 文档 的 相似 度 和 下 a 用 这,， 但 是 这 种 方法 单纯 以 词 
在 图 像 检索 领域 ， 利 用 图 像 周 围 文字 的 相似 度 程度 ， 可 以 进 频 作为 特征 ,没有 考虑 词语 和 文本 的 语义 特征 。 苏 小 虎 等 人 各 


步 判 定 其 图 像 的 相似 度 情 况 ， 可 以 获得 更 好 地 检索 精度 ， 在 文 。 下 WW 结合 原 有 特征 项 权重 和 文档 中 特征 项 自身 的 领域 权重 
本 聚 类 方面 ， 文 本 相似 度 算法 为 其 提供 了 依据 ， 从 根本 上 决定 。 ”改进 传统 VSM 方法 。 黄 承 慧 等 人 “fx 提出 词 项 相似 度 加 


收 稿 日 期 :2018-04-20; 修 回 日 期 :2018-05-16 ”基金 项 目 : 国家 重点 研发 计划 重点 专项 项 目 (2017YFB0802804); 国家 自然 科学 基金 资助 项 目 (61602489); 
中 国人 民 公 安 大 学 2018 年 基本 科研 业务 费 科研 机 构 项 目 (2018JKF504) 

作者 简介 : 张 璐 (1994-)， 男 ， 硕 士 研 究 生 ， 主 要 研究 方向 为 自然 语言 处 理 (gadxyjsyzl@163.com); 芦 天 亮 〈1985-)， 男 ， 副 教授 ， 博 士 ， 主 要 研究 方向 
为 信息 安全 ; 杜 彦 辉 〈1969-)， 男 ， 教 授 ， 博 士 ， 主 要 研究 方向 为 信息 安全 . 


录用 稿 


权 树 ， 将 词语 相似 度 映 射 到 文本 相似 度 ， 但 是 存在 计算 量 大 的 
缺点 。 谷 重阳 和 se 利用 计算 出 各 词 项 的 TF-IDF 值 对 相似 
度 计 算 公式 进行 了 改进 ， 将 词汇 的 相似 度 作为 权 值 对 余弦 距离 
公式 进行 改进 。Blanco 等 人 错误 ! 未 找到 引用 源 。 提 出 一 种 新 的 
句 型 和 语法 的 分 析 方 法 ， 从 句子 中 抽取 语义 关系 ， 并 进行 文本 
相似 度 的 计算 。Atoum 等 人 乞 *! 直 六, 利用 距离 和 内 容 计 算 词 
语 相 似 度 ， 并 通过 加 权 的 方式 扩展 到 文本 相似 度 。 在 短文 本 相 
似 度 计算 方面 ， 黄 贤 英 等 人 提出 按照 词性 对 文本 中 出 现 的 所 有 
词 项 进行 分 类 , 并 按照 重要 程度 对 不 同 词 性 赋予 不 同 的 权 值 委 & 


未 找到 引用 源 。 错 误 ! 未 找到 引用 源 。 


在 神经 网 络 和 深度 学 习 方面 ， 黄 江平 等 人 ss 提出 
基于 卷 积 神经 网 络 CNN 的 文本 相似 度 检 测 模型 。Kenter 等 全 
As 综合 了 不 同 条 件 下 获得 的 不 同 维度 的 词 向 量 ， 并 将 词 
语 相 似 度 映射 到 文本 相似 度 。Kusner 等 人 ”feie 通过 词 移 
距离 (word mover’s distance, WMD), 利用 词 向 量 计算 文本 相似 
度 。Neculoiu 等 人 sf#aas 有 RE 利用 LSTM 框架 ， 获 取 不 等 长 字 
符 串 之 间 的 语义 相似 性 。Kashyap 等 人 结合 了 文本 的 潜在 语义 
和 机 器 学 习 ， 综 合 了 多 种 语言 资源 的 数据 下。 

以 文本 主题 为 切入 点 ， 也 是 计算 文本 相似 度 的 一 种 方法 。 
孙 昌 年 等 人 利用 LDA 对 文本 进行 建 模 ， 利 用 主题 差异 表示 文 
本 的 相似 性 ， 但 是 这 种 方法 存在 词语 规模 大 ， 建 模 速度 慢 的 缺 
点 sa 。 张 超 等 人 结合 词性 改进 了 LDA 算法 ， 一 定 程度 
上 减少 了 词语 规模 ， 提 高 了 建 模 速度 ， 但 是 并 没 能 进一步 结合 


词语 之 间 的 语义 关系 ， 挖 气 不 同 领 域内 的 文本 之 间 固 有 的 差异 
性 9W。 本 文 针对 以 上 利用 LDA 进行 文本 相似 度 计算 时 
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图 1 WMF_LDA 主题 模型 结构 


在 WMF_LDA 主题 模型 中 ， 对 于 原文 文本 集 ， 按 照 正常 


LDA 模型 工作 之 前 的 预 处 理 过 程 将 其 进行 分 词 处 理 ; 然后 ， 根 


近义词 进行 统 


保留 名 词 和 动词 ， 将 其 


对 经 过 以 上 处 


在 图 1 中 ，K 为 预 设 的 文 


化 的 映射 ; 


据 事先 训练 好 word2vec 词 向 量 模型 ,在 语义 层面 上 将 领域 词 和 


然后 ， 根 据 文本 中 名 词 和 动词 对 于 
文章 语义 结构 影响 较 大 的 特点 ， 将 映射 后 的 词语 集 按照 词性 进 
也 词性 的 词语 过 滤 掉 ， 最 后 ， 


里 之 后 的 结果 进行 LDA 主题 建 模 。 


B 为 p 的 超 参 数 。 


2.2 词语 相似 度 计 算 


本 文中 采 


的 缺点 , 提出 了 WMF_LDA 主题 模型 ， 结合 词语 语义 和 词性 信 
息 , 利用 文本 集 之 间 的 领域 差异 , 改进 了 传统 的 LDA 模型 在 文 
本 相似 度 计算 领域 的 应 用 。 


2 WMF_LDA 主题 模型 工作 过 程 


2.1 模型 结构 

不 同类 型 的 文本 具有 其 本 身 固 有 的 与 其 他 类 别 文 本 的 差异 
性 ， 这 种 差异 性 主要 体现 在 用 词 方面 。 不 同类 型 的 文本 ， 都 有 
一 套 在 其 领域 内 常用 的 词语 列表 ， 我 们 称 之 为 领域 词 表 。 领 域 
词 表 中 的 词语 被 称 为 该 类 型 文本 所 对 应 的 领域 词 。 所 提出 的 
WMF_LDA 模型 就 是 在 原 有 LDA 的 模型 基础 上 ， 最 大 限度 的 
利用 这 种 不 同类 型 文本 在 领域 词 方面 上 的 差异 性 。WME_LDA 
主题 模型 的 工作 流程 如 图 1 所 示 。 


档 的 主题 数 ，M 为 语料库 中 包含 
所 有 的 文档 数量 ，N 表示 语料库 中 所 含 的 全 部 词语 ，W 表示 可 
被 观测 到 的 词 项 , Z 表示 所 选 定 的 该 词语 的 所 属 3 


E 题 ,9 为 文档 


-主题 的 概率 分 布 , q 为 主题 -词语 概率 分 布 ,a 为 6 分 布 的 超 参数 ， 


] word2vec 模型 进行 词语 的 向 量化 表示 。 其 基本 


思想 是 根据 词语 在 文章 中 的 位 


叫 | 


， 综 合 了 上 下 词 信息 来 计算 获 
取 词 向 量 , 因此 计算 出 来 的 词 向 量 将 具备 一 定 程度 的 语义 信息 。 


其 包括 两 种 训练 模型 , CBOW (continuous bag-of-words model) 


和 skip-gram (continuous skip-gram model )。 


输入 层 


词语 


词语 c 


(a) 
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隐 层 。 “| 第 - 集 
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输出 层 词 河 


YL 一 


词语 d 词语 e 


图 


上 下 词语 来 获取 该 词 的 向 是 
Skip-gram 模型 ,通过 将 某 词 映射 为 


语 的 向 量 表示 。 


a 
zx- 
(a 


图 2 (a) 表示 word2vec 的 CB 


1 练 模型 


OW 模型 ， 其 通过 某 个 词 的 


图 2 (b) 表示 word2vec 的 


其 上 下 文 临近 词 来 获取 该 词 


通过 以 上 word2vec 模型 ， 将 每 个 词语 表示 为 N 维 的 


词 向 量 ， 词 语 之 间 的 相似 度 则 通过 如 下 的 余弦 夹 角 来 进行 计算 


和 表示 。 


2.3 ”基于 语义 的 词语 合 


Powiiwzi (1) 


J Co wa) Eto wa) 


不 同类 别 的 新 闻 文 本 具有 


的 词语 集合 ， 或 专业 领域 


的 词语 集 。 本 文采 用 复旦 语料库 从 中 选择 太空 、 艺 术 、 农 业 、 
经 济 、 政 治 五 个 类 别 中 的 随机 200 篇 文章 ， 计 算 不 同 词语 在 不 


上 


同类 别 文本 中 的 出 现 频率 ， 结 果 如 
词语 在 “农业 "类 别 中 出 现 的 次 数 较 
出 现 次 数 较 少 甚至 不 会 出 现 ， 
别 在 “艺术 "与 “太空 "两 类 文本 集 


cky 


1 不 同 词语 在 不 同 


表 1 所 示 。“ 灌 溉 “农村 "等 
多 ， 而 在 其 他 类 别 的 文本 中 


“钢琴 "航天 "等 词语 则 分 


< 


出 现 的 次 数 较 多 。 


类 别 文本 中 的 出 现 次 数 


太空 ”艺术 经 济 政治 
灌溉 0 2 5 0 
农村 0 59 476 165 
钢琴 0 23 0 0 
作品 0 1800 1 9 
航空 ” 226 0 6 4 
航天 100 1 10 0 
经 济 25 240 6575 1774 
货币 0 6 433 18 
省 委 0 0 1 58 
政治 0 648 432 11189 

寻 此 , 我 们 可 以 得 知 ,不同 类别 的 新 闻 文 本 都 有 其 各 自 的 


领域 词 集 ， 其 中 的 词语 在 该 类 别 的 新 闻 中 出 现 次 数 较 多 ， 而 在 
其 它 类 别 的 文本 中 出 现 次 数 较 少 。 


出 如 下 假设 : 


假设 1 不 同类 别 文 本 


基于 以 上 分 析 ， 我 们 可 以 提 


ChinaX 
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本 的 、 体 现 其 领域 专业 性 的 词语 集合 。 


合作 期 刑 ， 
的 相似 度 计 算 


9 文本 相 亿 


假设 2 ” 若 两 词 属 同一 领域 词 集 ， 则 其 相似 程度 较 其 属 不 


同 领域 词 集 更 大 。 


除 此 之 外 , 文本 在 之 后 步骤 中 LDA 模型 进 
先是 将 原始 文本 转换 为 词 频 和 矩阵 ， 因 此 我 们 将 同义词 和 领域 词 
映射 到 同一 个 词语 表达 上 可 以 增加 该 领域 的 独特 性 ， 提 高 领域 
词 的 出 现 频率 。 另 外 ， 我 们 采用 Gibbs 采样 ， 得 到 所 有 词 的 主 
题 分 布 ， 统 计 某 篇 文档 中 所 有 词语 的 主题 计数 ， 便 可 得 到 该 文 
档 对 应 的 主题 分 布 ， 同 理 ， 统 计 所 有 语料库 中 所 有 词 的 主题 计 
数 ， 便 可 得 到 各 个 主题 对 应 的 词语 分 布 。 因 此 可 以 得 到 如 下 推 


断 : 


行 主题 建 模 , 首 


推断 1 某 篇 文章 中 包括 某 个 主题 的 词语 的 数量 越 多 ， 该 


文章 包含 该 主题 的 概率 则 越 大 。 


基于 以 上 假设 与 推断 ， 提 出 本 文思 路 通过 相似 度 的 计算 
将 同 《 近 ) 义 词 与 同一 专业 领域 内 的 词语 映射 
如 将 “航空 ”“ 航 天 ”“ 字 航 ” 等 词语 统一 映射 
可 以 最 大 限度 的 发 挥 各 类 文本 领域 词 集 内 的 词 


到 一 个 词语 上 ， 
为 “航空 2 这 样 
语 对 该 类 别 文 本 


的 标志 作用 ， 同 时 通过 将 同义词 映射 为 统一 词语 表示 ， 提 高 了 
该 词语 的 出 现 频率 ， 在 通过 Gibbs 采样 获取 文本 一 主题 概率 分 


布 时 ， 提 高 文本 在 该 主题 下 的 分 布 概率 值 。 


另外 , 通过 设 定 词语 之 间 的 相似 度 羡 


相似 ， 从 而 进行 统一 化 的 映射 ， 可 以 大 
高 了 LDA 建 模 效率 。 


2.4 基于 词性 的 词语 筛选 


对 于 一 篇 文章 的 内 容 理解 .语义 结构 等 方 


将 文本 中 除名 词 和 动词 之 外 的 词语 删除 


值 t, 来 判定 词语 是 否 
晶 的 降低 词语 规模 ， 提 


根据 中 文 文本 的 特点 ， 在 文本 的 语义 结构 上 ， 名 词 和 动词 


面 均 具 有 重要 的 作用 ， 
会 影响 我 们 对 于 整 


篇 文本 语义 的 把 握 和 和 理解。 此外， 在 文本 的 组 成 结构 方面 ， 名 
词 和 动词 也 占 总 体 词语 数量 的 比重 也 较 大 ， 对 于 文本 的 结构 组 


成 其 重要 作用 。 


无 论 在 语义 结构 还 是 组 成 结构 ， 名 词 和 
的 核心 要 素 。 因 此 ， 文 本 针对 此 特点 ， 将 通 


动词 都 是 一 篇 文本 


过 上 一 步 进 行 词语 


合并 与 映射 之 后 的 结果 ， 按 照 词性 进行 筛选 ， 保 留 对 文本 语义 


和 结构 影响 较 大 的 名 词 和 动词 ,而 过 滤 掉 划 
排除 助词 、 语 气 词 等 无 关 词 语 对 后 续 建 模 工 作 的 影响 ， 进 一 步 


降低 词语 规模 。 
2.5 WMF_LDA 主题 建 模 与 采样 


响 较 小 的 词语 ， 


本 文 提出 的 WMF_LDA 模型 在 建 模 阶 段 采 用 原始 的 LDA 


模型 ， 其 基于 这 样 的 假设 : 每 篇 文章 包含 看 干 


E 题 ， 二 出 现 概 


率 不 同 ， 同 时 不 同 主题 下 包含 若干 词语 ， 同 一 主题 下 不 同 词语 


的 出 现 概率 也 不 尽 相 同 ， 即 一 篇 文章 是 


FE 题 以 茶 种 分 布 


式 概率 构成 , 而 各 主题 则 是 由 各 项 词语 以 


其 相对 固定 、 区 别 于 其 他 类 别 文 


而 忽略 掉 词语 的 语法 结构 和 出 现 的 先后 


某 种 分 布 式 概率 构成 ， 
序 第 芭 林 要 到 引用 出 因 此 ， 
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对 于 LDA 来 说 , 文章 由 主题 构成 , 主题 由 词 构 成 , 而 文章 一 主 
题 的 分 布 6 与 主题 一 词语 的 分 布 丰 均 服 从 多 项 分 布 。 结合 图 1 中 
的 LDA 建 模 过 程 ， 可 以 用 联合 公式 表示 第 m 篇 文章 的 生成 过 


程 : 


Ey 


P(Zm, Wr Om IG B) = TI P (Wn )P (ZrnlOm)P (Omla)P (|B) 


(2) 
通过 以 上 公式 可 知 ， 对 于 第 m 篇 文章 的 生成 ， 本质 上 是 通 

过 循环 生成 每 一 个 词 的 过 程 。 对 于 第 m 篇 文章 的 第 n 个 词语 的 
生成 ， 则 其 具体 算法 步骤 如 下 : 


a) 以 a 作为 超 参 数 ， 通 过 狄 利克 雷 分 布 获取 文档 -主题 概率 
分 布 。 


b) 对 获取 的 文档 -主题 概率 分 布 6， 通过 多 项 式 分 布 , 获取 
该 词 所 属 的 主题 Zrn。 


0) 以 B 为 超 参 数 ， 结 合 该 词 所 属 的 主题 Zn， 通 过 狄 利克 雷 
分 布 获取 主题 -词语 概率 分 布 zrn。 


d) 对 获取 的 主题 -词语 概率 分 布 pzmw， 通 过 多 项 式 分 布 ， 获 
取 该 词 Wnn o° 


iy 


重复 以 上 步 又 aj~d)Nn 次 ， 生 成 第 m 篇 文章 的 Ni 次 。 


[3 


Se 


人 重复 以 上 a)~e) 步 又 M 次 ， 生 成 M 篇 文章 。 


模型 中 最 主要 的 需要 求解 的 两 个 参数 为 0 与 9zn, 即 文本 
-主题 与 主题 -词语 这 两 个 多 项 分 布 。 在 WMF_LDA 主题 建 模 过 
程 中 ，a 和 B 为 需要 提前 进行 确定 的 超 参数 。 在 文本 中 ，a 和 B 
经 验 值 : a = 50/K，B = 0.01。 


演 


除 此 之 外 ， 上 式 中 的 Zmn 也 是 未 知 的 ， 因 此 需要 根据 已 经 
生成 的 文本 中 词语 分 布 ， 倒 推 得 到 需要 的 参数 分 布 ， 即 Gibbs 
采样 的 方式 获取 需要 的 参数 文本 WMF_LDA 模型 所 采用 的 采 
样 流程 如 下 


a) 获取 经 过 以 上 词语 合并 与 筛选 处 理 后 的 词语 集合 ， 


滨 
并 


张 ” 璐 ， 等 : 基于 wr 5 直人 语 仿 期 刑 ， 
2.6 文本 相似 度 计算 
通过 以 上 WMF_LDA 主题 模型 , 对 于 语料库 中 的 每 一 篇 文 
本 ， 得 到 了 其 在 主题 层面 上 的 概率 分 布 。 本 文 以 文本 之 间 主 题 
概率 差异 表示 文本 的 相似 程度 因此 选择 相对 焙 (KL 距离 ) 作 
为 文本 相似 程度 的 判定 标准 。 同 时 , 由 于 KL 距离 是 非 对 称 的 ， 
本 文采 用 其 变种 ， JS 距离 进行 文本 相似 程度 计算 ， 其 计算 公 
式 如 下 , 其 中 di1、ds 表 示 经 过 以 上 WMF_LDA 建 模 得 到 的 文本 


Sim(d;,d,) = [pi (de) + Dr (ge)| 692 


叶 


Duld,d2) = Zi(dilog 人) (6) 


3 ”实验 结果 与 分 析 


3.1 实验 数据 
本 文 所 采用 的 实验 数据 分 为 word2vec 词 向 量 训 练 和 利用 
WMF_LDA 主题 模型 进行 建 模 与 文本 相似 度 计算 两 部 分 。 


进行 词 向 量 训练 时 , 综合 采用 复旦 大 学 语料库 、 腾 讯 新 闻 
语料库 、 搜 狗 实 验 室 新 闻 语料库 、 凤 凰 新 闻 网 、 网 易 新 闻 语 料 
库 、 人 民 网 、 维 基 百 科 等 多 个 中 文 文本 语料库 ， 共 2813611 篇 
新 闻 文 本 ，83 万 词 条 。 


进行 LDA 的 建 模 与 文本 相似 度 计 算 时 ， 采 用 的 是 复旦 大 
学 语料库 的 部 分 文本 数据 。 本 文选 取 其 中 艺术 、 太 空 、 农 业 、 
经 济 和 政治 五 类 语 料 , 每 类 随机 选择 200 篇 文本 , 共计 1000 篇 
文本 进行 建 模 与 相似 度 计 算 。 


3.2 文本 聚 类 与 相似 度 衡量 
利用 本 文 提 出 的 文本 相似 度 计 算 方法 ， 计 算出 两 篇 文章 在 
主题 分 布 上 的 相似 程度 ， 并 以 此 作为 文本 之 间距 离 ， 对 测试 集 
中 全 部 样本 进行 文本 聚 类 。 根 据 聚 类 结果 ， 判 断 每 一 篇 文章 是 
否 被 划分 至 正确 的 类 别 ， 同 时 判断 每 一 个 类 别 是 否 包含 对 应 属 
于 该 类 别 的 文本 。 综 合 判定 本 文 提出 的 文本 相似 度 计 算 方法 的 


中 的 每 一 个 词语 随机 初始 化 一 个 主题 z(9) 。 


b) 对 每 一 个 词语 , 根据 如 下 Gibbs 采样 公式 更 新 当前 词语 
的 主题 概率 ， 即 排除 当前 词语 的 主题 分 配 ， 根 据 其 他 所 有 词 的 
主题 分 配 重新 估计 当前 词语 在 各 个 主题 下 的 概率 。 其 中 , n 中 表 
示 主 题 k 下 出 现 词语 t 的 数量 ，m@9 表 示 文 档 m 中 出 现 主题 k 
的 次 数 ， -mi 表示 除去 下 标 为 i 的 词 。 


"orp 


Zin the 


P(Gz = km x 


(nt + ax) (3) 


i 


c) 重复 以 上 过 程 直至 采样 收敛 。 


d) 通过 以 下 公式 计算 得 文本 一 主题 概率 分 布 情况 


(和 下 这 
On = 一 To (4) 
Re Bi nn) +ak 


准确 性 。 


上 述 聚 类 结果 的 准确 程度 通过 Fl 值 进行 衡量 。F1 值 是 在 
机 器 学 习 、 自 然 语 言 处 理 、 信 息 检索 等 领域 进行 评估 的 重要 指 
标 。 根 据 聚 类 结果 ， 计 算 聚 类 j 所 属 类 别 i 的 查 准 率 P(i,j)， 与 
聚 类 j 所 属 类 别 i 的 找 回 率 RG,j) 中 。 其 计算 公式 如 下 所 示 : 


PO) = ,RCN = 07) 


ny 


其 中 : mi 表示 聚 类 结果 为 j 的 文本 中 属于 类 别 i 的 文本 数量 ; 
ni 表示 类 别 为 i 的 文本 数量 ;用 为 聚 类 结果 为 j 的 文本 数量 。 


通过 P(i,j) 与 R(Gi,j) 根 据 以 下 公式 计算 得 到 其 对 应 下 值 : 


2#P(i))*R(iN) 
PUD+RCD 


全 局 聚 类 的 Fl 值 的 计算 公式 如 下 : 


FQ,j) = 


(8) 


| 


F1 = PPEmaw(F(i,)) (9) 
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其 中 : N 为 测试 集中 包含 的 文本 类 别 数量 


本 数量 。 全 局 聚 类 的 Fl 值 越 
本 相似 度 计算 算法 效果 越 好 。 


3.3 ”基于 语义 的 词语 合 
在 本 文 进 行 实验 所 采 | 
个 不 同 的 词语 ,利用 


组 进行 合 


word2vec 模型 
并 和 统一 化 映射 时 ， 本 文 设 定 阔 值 t = 0.5， 对 大 于 该 
并 。 最 终 将 词语 数量 降低 为 4 万 ， 仅 为 原来 的 三 分 之 


大 ， 


4 在 语义 


的 1000 篇 文本 中 ， 共 包涵 


量 ，n 表示 测试 集中 文 
说 明 聚 类 效果 越 好 ,反映 出 文 


6 万 多 


层面 上 对 词语 进行 合 


闷 值 的 词 


ey 


六 本 集中 的 一 些 词语 在 根据 i 


结果 。 


表 2 文本 集 


可 以 有 效 地 提高 后 续 进 行 
在 义 信 


LDA 建 模 的 速度 。 表 2 
息 与 其 他 词语 进行 合 


中 部 分 词语 映射 后 结果 


展示 了 
并 之 后 


统一 映射 后 
的 词语 


原始 文本 集中 的 词语 


国际 航空 


国际 


、 航 空 公司 


增 容 费 增 容 费 、 入 网 费 


、 了 配套 5 BN™ 电 祷 


安装 费 、 


煤气 费 


高 宗 
横 斜 


横 斜 、 


中 央 组 织 则 中 央 组 织 部 


MON 


明宗 、 仁 秀 


sy 

仁宗 、 
朴 影 
玩 影 、 


铣 刀 、 
、 团 


EA 


青绿 、 暗 


太宗 、 
摇 臂 、 腹 板 、 工 字 钢 
中 央 、 中 央 宣 传 部 、 


成 宗 


总 政治 部 


倒 茬 、 轮 作 、 


块 、 


密植 、 


翻 寿 、 


收购 量 、 


商品 率 、 


生产 量 、 


厌 


传 | 


告 宣传 、 


厂 宇 、 阐 业 / 


条 县 


通俗 歌 


、 英 文 歌 


、 流 行 歌 、 


传 、 虚 假 
副 士 乐 、 革 命 歌 


如 表 2 所 示 ， 


一 映射 为 “ 
宣传 部 ” 


只 音 2 


“国际 航空 “ 航 
空 (Space)” J 而 在 其 他 类 别 
国际 航空 ”。 同 理 ， 
We ne 


23 2 6 和 


aE 


“中 央 组 


则 统一 映射 为 “中 央 组 织 


通过 表 2 可 


。 雹 过 
领域 词 


行 领域 内 词语 的 合 
对 所 属 领 域 的 反映 和 代表 能 
3.4 LDA 主题 数量 选择 


》 可 以 提高 该 


织 部 29 6 


帮 空 公司 ” 


pb 很 少 1 


明显 属于 “ 太 
! 现 ， 忆 此 统 


才 中 


央 ” 6 中 央 


多 个 主题 映射 到 同 


K。K 值 选择 较 小 ， 


一 个 主题 


主题 建 模 2 
则 无 法 将 不 同 主题 进行 
上 的 情况 ， 无 沪 


在 对 文本 集 进 行 LDA 3 


县 ， 


: 准 


岗 的 次 数 较 多 ， 
[得 , 根据 词语 语义 进 
的 出 现 频次 ， 提 高 其 


布 的 差异 表示 计算 出 文本 相似 程度 KK 值 选择 较 大 ， 则 意味 将 


每 一 篇 文本 映射 到 多 个 不 同 的 主题 维度 上 ， 和 忽略 了 即使 相同 类 
型 的 文本 在 主题 的 细节 上 也 会 存在 的 差异 性 。 同 时 ， 过 多 的 维 
度 也 会 增加 后 续 的 计算 时 间 ， 降 低 计算 效率 。 因 此 ， 不 同 开 值 
的 选择 将 直接 影响 到 后 边 LDA 模型 的 准确 度 。 

因此 ， 在 进行 最 终 准 确 率 实验 进行 比较 之 前 ， 需 要 首先 确 
定 建 模 过 程 中 所 采用 的 KK 值 。 具 体 过程 算 法 如 下 : 

引 针 对 3.1 节 描 述 的 1000 篇 测试 集 文章 ， 利 用 上 述 2.3 和 
2.4 描述 的 词语 合并 与 筛选 过 程 对 其 进行 处 理 。 

b) 确 定 建 模 参 数 。 其 中 ，a 和 B 采 取经 验 值 ， 并 确定 待 测定 


Chi 
: 基于 WMF_LDA nn 


| 
相似 度 i 算 


张 璐 ， 
的 K 值 范围 。 对 于 每 一 个 K 值 ， 计 算 下 列 过 程 
o) 根 据 上 述 2.5 节 进 行 主题 建 模 ， 获 取 1000 篇 测试 集 文本 
在 K 个 维度 上 的 主题 分 布 。 
d) 根 据 上 述 2.6 节 内 容 ， 计算 1000 篇 测试 即 文本 中 两 两 2 
间 的 相似 度 值 。 
e) 根 据 上 述 3.2 节 内 容 ， 利 用 K-means 聚 类 算法 ， 对 1000 
篇 测试 集 文 本 进行 聚 类 计算 。 
根据 聚 类 结果 ， 计 算 该 K 值 对 应 下 的 全 局 准确 度 F1l。 
人 于 (400, 0.70) 
0.70 
oo 
图 3 不 同 k 值 下 准确 率 比较 (五 次 计算 取 平 均值 ) 
从 图 3 可 以 看 出 ， 经 过 多 次 计算 取得 平均 值 的 情况 下 ， 采 
用 相同 的 文本 集 和 参数 设 定 ， 主 题 数 量 设 定 为 400 时 ，F(1) 为 
0.70 最 大 。 因 此 , 在 后 续 的 LDA 建 模 实验 中 , 将 主题 数量 设置 
为 k = 400。 
3.5 词语 规模 与 运行 时 间 实 验 对 比 
文本 提出 的 WMF_LDA 主题 模型 ， 在 进行 建 模 之 前 ， 首 
先 根据 词语 语义 将 领域 词 与 近义词 进行 统一 化 的 映射 表示 。 并 
根据 中 文 文本 的 特点 ， 将 特定 的 名 词 和 动词 进行 篇 选 构 成 新 的 
文本 集 。 从 文本 的 语义 结构 和 组 织 结构 两 方面 进行 语料库 规模 
的 压缩 ， 可 以 降低 词语 数量 ， 提 高 建 模 时 间 。 下 图 表示 了 采用 
相同 上 述 数 据 集 ，WMF_LDA 与 传统 LDA 主题 模型 在 词语 数 
量 与 运行 时 间 上 的 差异 。 
a 61426 词语 规模 个 
LD WMF_LDA 
旭 4 ”两 种 方法 词语 规模 与 运行 时 间 比 较 ( 五 次 计算 去 平均 值 ) 
通过 图 4 可 以 得 知 , 本 文 提出 的 WMF_LDA 在 运行 时 间 与 
词语 规模 上 均 优 于 传统 LDA 主题 建 模 的 方法 。 其 中 传统 建 模 


方法 需要 对 6 万 多 个 词语 建 模 , 最 终 耗 时 7000 多 秒 ; 本 文 提 


的 WMF_LDA 对 4 万 多 个 词语 进行 建 模 , 最终 耗 时 4000 多 秒 。 


3.6 聚 类 准确 率 对 比 
本 文采 用 


经 典 的 K-means 聚 类 算法 ， 


在 词语 规模 与 运行 时 间 上 均 降 低 为 原来 的 三 分 之 一 。 


以 准确 度 Fl 值 为 评 


LH 
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价 指标 来 衡量 文本 相似 度 计算 效果 。 在 效果 对 比 时 ， 本 文采 | 
传统 TF-IDF 方法 、 经 典 LDA 方法 与 本 文 提出 的 WMF_LDA 模 
型 进行 比较 ， 并 将 本 文 提出 的 基于 语义 的 词语 合并 与 基于 词性 
的 词语 第 选 (WMF, Word Merging and Filtering) 与 传统 TF-IDF 
相 结合 ， 一 并 作为 对 比 实验 。 实 验 结果 如 表 3 所 示 。 


表 3 不 同方 法 下 准确 率 比较 (五 次 计算 取 平 均值 ) 


方法 准确 度 Fl 值 
TF-IDF 60.1% 
TF-IDF+WMF 61.8% 
LDA 68.1% 


WMF_LDA (本 文 方法 ) 72.5% 


表 3 显示 , 本 文 提出 的 WMF_LDA 方法 在 文本 相似 度 计算 
聚 类 准确 度 方面 较 传统 LDA 方法 有 明显 的 提升 。 同 时, 将 本 
文 提出 的 基于 语义 的 词语 合并 与 基于 词性 的 词语 盘 选 (word 
merging and filtering,WMEF) 应 用 于 传统 TF-IDF 方法 上 ， 也 可 以 
获得 一 定 程度 的 提升 。 这 是 因为 本 文 提 出 的 方法 在 文本 语义 结 
合 和 组 成 结构 上 ， 将 对 文本 影响 较 小 的 词语 第 选 过 滤 ， 同 时 将 
能 够 体现 文本 领域 特征 的 词语 进行 统一 化 映射 增强 了 文本 的 
领域 差异 。 


4 ”结束 语 


本 文 在 分 析 传 统 TF-IDF 和 LDA 计算 文本 相似 度 的 基础 
上 , 提出 WMF_LDA 主题 模型 。 其 针对 不 同类 型 文本 具有 其 特 
殊 的 领域 词 集 的 特点 ， 根 据 词 语 的 语义 将 同 领 域内 或 相近 语义 
的 词语 映射 到 同一 个 词语 表示 上 ， 提 高 了 领域 词 的 出 现 频 率 ， 
增强 其 对 所 属 领域 的 代表 和 表示 能 力 ， 在 主题 建 模 时 通过 词 
频 的 增加 提高 了 文档 在 某 个 主题 下 的 分 布 概率 。 实 验 结果 表明 ， 
WMF_LDA 可 以 降低 词语 规模 、 减 少 主题 建 模 时 间 ， 并 提高 文 
本 聚 类 的 准确 率 。 

下 一 步 的 工作 是 : 在 词语 语义 的 基础 上 ， 考 虑 代词 、 形 容 
词 、 副 词 的 作用 ， 进 一 步 挖掘 文本 中 其 他 组 成 成 分 之 间 的 结构 
和 语义 关系 ， 以 进一步 从 句子 的 角度 挖掘 相似 度 计算 方式 ， 并 
映射 到 整 篇 文本 的 相似 度 。 
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